GPT-4 即将发布,带来什么产业边际变化?
行业更新系列
GPT-4即将发布,多模态趋势凸显。3月9日,微软德国CTO Andreas Braun 宣布GPT-4将在3.13-3.19日发布,将提供完全不同的可能性——如图像、视频。结合微软3月初发布多模式大型语言模型Kosmos-1,可以推断大模型包括GPT4将向多模态发展,多模态将成为下一波浪潮的核心。
Kosmos-1、Visual ChatGPT已铺垫GPT-4多模态模型。微软在多模态模型领域持续发力,2月28日发表论文推出了全能型人工智能模型——Kosmos-1,和局限于纯文本内容(LLM)的ChatGPT相比,Kosmos-1主干基于Transformer的因果语言模型,属于多模态大型语言模型(MLLM),除了自然语言任务,能同时理解文字与图像内容,未来会整合更多的输入模式,如音频、视频。
模型规模上,GPT-4不再强调参数规模扩张,开始注重模型表现。GPT-3采用的参数规模为1750亿个,此前业内专家推测GPT-4将具有100万亿个参数,网传热图将GPT-3的数据集比作一条线,GPT-4拓展成一个圆。OpenAI的CEO Altman在采访问答中对这张图进行了辟谣,并表示GPT-4接受训练的数据量并不会出现几何级的增长,OpenAI在数据规模上决定转型,探索怎样让模型发挥更佳效能。OpenAI的研究人员们现在意识模型规模扩张的边际回报递减,比起在规模上扩张,探索如何在学习率、批次大小等方面精进成为了突破的重点,所以GPT-4不再强调规模扩张,在数据规模上不会比GPT-3大很多。
模型优化:需要更多算力挖掘GPT-4的全部潜能。Altman在问答中提到GPT-4占用的算力总量要超过GPT-3。多模态模型在训练上需要使用图像、视频等多媒体数据,而此类文件体量大小远超文字。举例来说,OpenAI的根据文本生成图像的人工智能系统DALL-E2模型,在训练时使用了6.5亿图像数据集,模型规模有10到100亿参数量级的不同变体,按照平均图片大小估算,整体训练数据集大小高达约155TB,远超ChatGPT训练的规模。再加之视频素材的训练,训练数据集体量更是远超现在的纯文本模型,大数据规模需求凸显。综上,多模态大模型的训练对算力芯片数量需求远超纯文本语言类模型,在算力市场会迎来新一轮需求激增。
多模态是GPT系列发展的必然趋势,也是多元化应用落地的基础。当下,图像化应用已打开新型市场空间,3月8日微软开源了重量级的ChatGPT AI交互应用Visual ChatGPT,通过调用ChatGPT以及一系列视觉基础模型,实现了在聊天过程中发送和接收图像,以及动态对图像进行处理,在ChatGPT的基础上拥有了VQA(视觉问答)和AI作画的能力。Visual ChatGPT发布后短短一天,在Github就达到了4000星,文本生成图像功能已经如此引发市场追捧,GPT-4按照预期拓展到视频方向,文字生成视频、图像生成视频功能有望进一步奠定视觉方面应用落地,拓展市场格局。
图像端已有应用落地,视频等多模态的引入将打开下游行业应用空间。当前,不论是OpenAI的DALL-E2,还是AIGC领域的Stable Diffusion都已在图像领域进行了初步探索,并引起不小的反向。预计多模态短期内将在搜索引擎和聊天机器人上实现落地,为用户使用感带来巨大提升。考虑到当今信息数据有相当部分是以图像和视频的形式呈现,具有图像、视频处理能力的GPT-4对用户的反馈将从更完整的来源获得信息并以多媒体的形式呈现,有效地提高用户体验。远期看,多模态将打开视觉方向,图片生成、视频创作能力,将协助GPT-4在各类商业模式上实现进一步的拓宽,从而实现多媒体交互。
合规声明:本文节选自正式入库研究报告,如需PDF原文件请后台留言。
- end -
欢迎加入行业交流群!
欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。
ChatGPT相关报告